The current reinforcement learning algorithm uses forward-generated trajectories to train the agent. The forward-generated trajectories give the agent little guidance, so the agent can explore as much as possible. While the appreciation of reinforcement learning comes from enough exploration, this gives the trade-off of losing sample efficiency. The sampling efficiency is an important factor that decides the performance of the algorithm. Past tasks use reward shaping techniques and changing the structure of the network to increase sample efficiency, however these methods require many steps to implement. In this work, we propose novel reverse curriculum reinforcement learning. Reverse curriculum learning starts training the agent using the backward trajectory of the episode rather than the original forward trajectory. This gives the agent a strong reward signal, so the agent can learn in a more sample-efficient manner. Moreover, our method only requires a minor change in algorithm, which is reversing the order of trajectory before training the agent. Therefore, it can be simply applied to any state-of-art algorithms.
translated by 谷歌翻译
由于众所周知,强化学习算法是数据密集型的,因此从环境中进行采样观测的任务通常在多个代理之间分配。但是,将这些观察结果从代理转移到中心位置可能会非常昂贵,并且还可以损害每个代理人本地行为政策的隐私。在本文中,我们考虑了一个联合加强学习框架,其中多个代理商协作学习了一个全球模型,而无需共享他们的个人数据和政策。每个代理都维护模型的本地副本,并使用本地采样数据对其进行更新。尽管具有n个代理可以启用n次数据的采样,但尚不清楚它是否导致比例收敛的加速。我们提出了联合版本的On-Policy TD,Off-Policy TD和Q学习,并分析其收敛性。对于所有这些算法,据我们所知,我们是第一个考虑马尔可夫噪声和多个局部更新的人,并证明相对于代理的数量是线性收敛的速度。为了获得这些结果,我们表明联邦TD和Q学习是与马尔可夫噪声联合随机近似的一般框架的特殊情况,并且我们利用该框架提供了适用于所有算法的统一收敛分析。
translated by 谷歌翻译
This paper presents an algorithm that relies on a series of dense and deep neural networks for passive microwave retrieval of precipitation. The neural networks learn from coincidences of brightness temperatures from the Global Precipitation Measurement (GPM) Microwave Imager (GMI) with the active precipitating retrievals from the Dual-frequency Precipitation Radar (DPR) onboard GPM as well as those from the {CloudSat} Profiling Radar (CPR). The algorithm first detects the precipitation occurrence and phase and then estimates its rate, while conditioning the results to some key ancillary information including parameters related to cloud microphysical properties. The results indicate that we can reconstruct the DPR rainfall and CPR snowfall with a detection probability of more than 0.95 while the probability of a false alarm remains below 0.08 and 0.03, respectively. Conditioned to the occurrence of precipitation, the unbiased root mean squared error in estimation of rainfall (snowfall) rate using DPR (CPR) data is less than 0.8 (0.1) mm/hr over oceans and land. Beyond methodological developments, comparing the results with ERA5 reanalysis and official GPM products demonstrates that the uncertainty in global satellite snowfall retrievals continues to be large while there is a good agreement among rainfall products. Moreover, the results indicate that CPR active snowfall data can improve passive microwave estimates of global snowfall while the current CPR rainfall retrievals should only be used for detection and not estimation of rates.
translated by 谷歌翻译
In the last few years, various types of machine learning algorithms, such as Support Vector Machine (SVM), Support Vector Regression (SVR), and Non-negative Matrix Factorization (NMF) have been introduced. The kernel approach is an effective method for increasing the classification accuracy of machine learning algorithms. This paper introduces a family of one-parameter kernel functions for improving the accuracy of SVM classification. The proposed kernel function consists of a trigonometric term and differs from all existing kernel functions. We show this function is a positive definite kernel function. Finally, we evaluate the SVM method based on the new trigonometric kernel, the Gaussian kernel, the polynomial kernel, and a convex combination of the new kernel function and the Gaussian kernel function on various types of datasets. Empirical results show that the SVM based on the new trigonometric kernel function and the mixed kernel function achieve the best classification accuracy. Moreover, some numerical results of performing the SVR based on the new trigonometric kernel function and the mixed kernel function are presented.
translated by 谷歌翻译
强化学习(RL)是一种基于代理的方法,可以教机器人在物理世界中导航。已知收集RL的数据是一项费力的任务,现实世界实验可能会冒险。模拟器以更快,更具成本效益的方式促进培训数据的收集。但是,RL经常需要大量的仿真步骤才能使代理在简单任务上变得熟练。这是基于RL的视觉四面导航字段中普遍的问题,其中状态尺寸通常非常大,动态模型很复杂。此外,渲染图像和获得代理的物理特性在计算上可能很昂贵。为了解决这个问题,我们提出了一个基于Airsim的模拟框架,该框架提供了有效的并行训练。在此框架的基础上,APE-X经过修改,以结合空调环境的分散培训,以利用众多网络计算机。通过实验,我们能够使用上述框架将训练时间从3.9小时减少到11分钟,总共有74个代理和两台网络计算机。可以在https://sites.google.com/view/prl4airsim/home上找到有关我们项目Prl4airsim的更多详细信息和有关我们项目的视频。
translated by 谷歌翻译
使用可能的异质动力学估算时间序列数据的价值风险是一项高度挑战的任务。通常,我们面临着一个小的数据问题,结合了高度的非线性,因此对于经典和机器学习估计算法造成了困难。在本文中,我们提出了使用长期记忆(LSTM)神经网络的新型价值估计器,并将其性能与基准GARCH估计器进行比较。我们的结果表明,即使在相对较短的时间序列中,LSTM也可以用于完善或监视风险估计过程,并以非参数方式正确识别潜在的风险动态。我们对模拟和市场数据的估计器进行了评估,重点是异方差,发现LSTM在模拟数据上表现出与GARCH估算器相似的性能,而在实际市场数据上,它对增加波动性或降低波动性更为敏感,并且优于所有现有的现有估计器在异常率和平均分位数评分方面,价值风险。
translated by 谷歌翻译
对于现代自治系统来说,可靠的场景理解是必不可少的。当前基于学习的方法通常试图根据仅考虑分割质量的细分指标来最大化其性能。但是,对于系统在现实世界中的安全操作,考虑预测的不确定性也至关重要。在这项工作中,我们介绍了不确定性感知的全景分段的新任务,该任务旨在预测每个像素语义和实例分割,以及每个像素不确定性估计。我们定义了两个新颖的指标,以促进其定量分析,不确定性感知的综合质量(UPQ)和全景预期校准误差(PECE)。我们进一步提出了新型的自上而下的证据分割网络(EVPSNET),以解决此任务。我们的架构采用了一个简单而有效的概率融合模块,该模块利用了预测的不确定性。此外,我们提出了一种新的LOV \'ASZ证据损失函数,以优化使用深度证据学习概率的分割的IOU。此外,我们提供了几个强大的基线,将最新的泛型分割网络与无抽样的不确定性估计技术相结合。广泛的评估表明,我们的EVPSNET可以实现标准综合质量(PQ)的新最新技术,以及我们的不确定性倾斜度指标。
translated by 谷歌翻译
旅行销售人员问题(TSP)是一个经典的资源分配问题,用于找到完成一组任务的最佳顺序,同时最大程度地减少(或最大化)相关的目标函数。它被广泛用于机器人技术,用于诸如计划和计划之类的应用程序。在这项工作中,我们使用增强学习(RL)解决了TSP的两个目标。通常,在多目标优化问题中,相关的目标函数本质上可能是冲突的。在这种情况下,最优性是根据帕累托最优性定义的。目标空间中的这些帕累托最佳解决方案组成帕累托前部(或边境)。每个解决方案都有其权衡。我们介绍了Pareto Frontier近似网络(PA-NET),该网络为Bi-Objective旅行销售员问题(BTSP)生成了良好的Pareto前部近似值。首先,将BTSP转换为受约束的优化问题。然后,我们使用拉格朗日放松和政策梯度来训练我们的网络来解决这一受约束的问题。使用PA-NET,我们改善了现有基于RL的方法的性能。用于测量帕累托阵线最佳性的超量度量的平均改进为2.3%。同时,PA-NET的推理时间更快。最后,我们介绍了PA-NET的应用,以在机器人导航任务/覆盖范围计划中找到最佳的访问顺序。我们的代码可在项目网站上找到。
translated by 谷歌翻译
基于视觉的控制在研究中发现了一个关键位置,以在物理传感限制下控制连续式机器人时解决状态反馈的要求。传统的视觉伺服需要特征提取和跟踪,而成像设备捕获图像,这限制了控制器的效率。我们假设采用深度学习模型和实现直接视觉伺服可以通过消除跟踪要求和控制连续内机器人而无需精确的系统模型来有效地解决问题。在本文中,我们控制了一种利用改进的VGG-16深度学习网络和掌握直接视觉伺服方法的单段肌腱驱动的连续内机器人。所提出的算法首先在搅拌机中使用目标的一个输入图像在搅拌机中开发,然后在真正的机器人上实现。由归一化目标和捕获图像之间的绝对差异和反映的正常,阴影和遮挡场景的收敛性和准确性证明了所提出的控制器的有效性和鲁棒性。
translated by 谷歌翻译
在过去的十年中,自动驾驶航空运输车辆引起了重大兴趣。这是通过空中操纵器和新颖的握手的技术进步来实现这一目标的。此外,改进的控制方案和车辆动力学能够更好地对有效载荷进行建模和改进的感知算法,以检测无人机(UAV)环境中的关键特征。在这项调查中,对自动空中递送车辆的技术进步和开放研究问题进行了系统的审查。首先,详细讨论了各种类型的操纵器和握手,以及动态建模和控制方法。然后,讨论了降落在静态和动态平台上的。随后,诸如天气状况,州估计和避免碰撞之类的风险以确保安全过境。最后,调查了交付的UAV路由,该路由将主题分为两个领域:无人机操作和无人机合作操作。
translated by 谷歌翻译